大家好,本期给大家推荐的文献是Differentially Expressed lncRNAs in Gastric Cancer Patients: A Potential Biomarker for Gastric Cancer Prognosis,发表在Journal of Cancer杂志上,影响因子3.182。这篇文章主要是研究胃癌患者中差异表达的lncRNA,通过构建一个预测模型,来找出与胃癌预后相关的lncRNA。
术语
lncRNA:长度大于 200 个核苷酸的非编码 RNA,在众多生命活动中发挥重要作用。
DFS:无病生存期,是指从随机化开始至疾病复发或由于疾病进展导致患者死亡的时间。
ssGSEA:单样本基因集合富集分析,该方法可以对单个样本进行富集分析。
首先从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。然后下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显著相关的lncRNA,通过GSE15459数据集对模型进行验证。进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。2.1 从训练集识别预后的lncRNA
通过R语言的”limma”包从GSE79973当中识别出339个差异表达的lncRNA,再利用Lasso-cox回归分析方法在训练集GSE62254中构建预测模型,识别出了12个与显著相关的lncRNA。
2.2 训练集中12个lncRNA与病人生存期
通过Lasso-cox回归分析,得到了预测模型,样本的风险分数计算公式为Risk score = (0.1243*expression level of CHST9-AS1) + (-0.4656*expression level of ENSG00000251538) + (0.2788*expression level of TPT1-AS1) + (0.0340*expression level of MIR100HG) + (0.1696*expression level of LOC400043) + (0.0243*expression level of LINC00340) + (0.0051*expression level of LOC283174) + (-0.5749*expression level of LOC100133985) + (-0.0659*expression level of Hs.93194) + (0.0008*expression level of LOC401093) + (-1.3684*expression level of ENSG00000233236) + (-0.0054*expression level of ENSG00000229565)。根据风险分数的中位数,可以将训练集样本分成高低风险组,绘制KM曲线
而风险分数高的分组其复发率也要高于风险分数低的组
2.3 在测试组验证12个lncRNA对生存期的预测
以训练集构建的模型公式计算出验证集GSE5459中每个样本的风险分数,并以训练集的风险分数中位数将验证集分成高低风险两组,绘制KM曲线
通过多因素cox回归分析得到各个因素与预后的关系
2.4 12个lncRNA的预后价值
这部分主要是研究12个lncRNA对预后的影响是否与ACJJ分期和化疗相互独立。首先是将训练集的ACJJ分期分为I&II期、III&IV期、化疗、非化疗,然后做生存分析,绘制KM曲线和ROC曲线。可以看到高低风险组都明显区分开,这表明12个lncRNA对预后的影响与ACJJ分期和化疗是相互独立的。
2.5 12个lncRNA的临床应用
通过预测模型的构建与验证,得到12个与预后相关的lncRNA以及与预后相关的各种因素。通过构建列线图,可以将得到的预后相关的各因素进行临床应用,对患者的3年生存率进行预测(图A)。通过校准曲线与ROC曲线,可以对列线图的预测准确性进行评估(图B、C)。通过决策曲线分析,可以对列线图的临床应用进行评估(图D)。
2.6 识别12个lncRNA相关的生物学通路
用过ssGSEA得到了训练集的聚类热图,样本按照高低风险组进行划分。可以看到高风险组与药物耐药和肿瘤转移等生物学通路显著相关。而这些通路与风险分数是显著相关的(图A),肿瘤转移组与非转移组相比具有更高的风险分数(图B)。
本篇文章通过GEO的三个数据集完成了胃癌患者差异lncRNA的筛选,模型的构建与验证,又通过列线图对预测模型进行了临床应用,ssGSEA分析进行通路的富集。整体思路很清晰,分析的也比较完整,对胃癌的临床治疗具有一定的实际意义!你以为到这里就结束了么?不,这里有个隐藏福利给你!
芝士君邀请到生信大神,以本文为例,手把手带你复现每个步骤(含代码),让你事半功倍,快速复刻3分GEO数据库lncRNA模型构建套路!
购课方式
GEO数据库lncRNA模型构建课程249元。
1、长按识别下方二维码
2、点击下方【去淘宝购买】
3、打开手机淘宝,点击【立即购买】即可。
4、购买后课程自动发货,如有疑问可以咨询客服。